We consider the end-to-end abstract-to-title generation problem, exploring seven recent transformer based models (including ChatGPT) fine-tuned on more than 30k abstract-title pairs from NLP and machine learning venues. As an extension, we also consider the harder problem of generating humorous paper titles. For the latter, we compile the first large-scale humor annotated dataset for scientific papers in the NLP/ML domains, comprising almost 2.5k titles. We evaluate all models using human and automatic metrics. Our human evaluation suggests that our best end-to-end system performs similarly to human authors (but arguably slightly worse). Generating funny titles is more difficult, however, and our automatic systems clearly underperform relative to humans and often learn dataset artefacts of humor. Finally, ChatGPT, without any fine-tuning, performs on the level of our best fine-tuned system.
translated by 谷歌翻译
State-of-the-art poetry generation systems are often complex. They either consist of task-specific model pipelines, incorporate prior knowledge in the form of manually created constraints or both. In contrast, end-to-end models would not suffer from the overhead of having to model prior knowledge and could learn the nuances of poetry from data alone, reducing the degree of human supervision required. In this work, we investigate end-to-end poetry generation conditioned on styles such as rhyme, meter, and alliteration. We identify and address lack of training data and mismatching tokenization algorithms as possible limitations of past attempts. In particular, we successfully pre-train and release ByGPT5, a new token-free decoder-only language model, and fine-tune it on a large custom corpus of English and German quatrains annotated with our styles. We show that ByGPT5 outperforms other models such as mT5, ByT5, GPT-2 and ChatGPT, while also being more parameter efficient and performing favorably compared to humans. In addition, we analyze its runtime performance and introspect the model's understanding of style conditions. We make our code, models, and datasets publicly available.
translated by 谷歌翻译
State-of-the-art machine translation evaluation metrics are based on black-box language models. Hence, recent works consider their explainability with the goals of better understandability for humans and better metric analysis, including failure cases. In contrast, we explicitly leverage explanations to boost the metrics' performance. In particular, we perceive explanations as word-level scores, which we convert, via power means, into sentence-level scores. We combine this sentence-level score with the original metric to obtain a better metric. Our extensive evaluation and analysis across 5 datasets, 5 metrics and 4 explainability techniques shows that some configurations reliably improve the original metrics' correlation with human judgment. On two held datasets for testing, we obtain improvements in 15/18 resp. 4/4 cases. The gains in Pearson correlation are up to 0.032 resp. 0.055. We make our code available.
translated by 谷歌翻译
我们探索自然语言生成(NLG)的有效评估指标。为了实施高效的指标,我们用较轻的版本(例如蒸馏器)和(ii)立方推理时间对齐算法等较轻的版本(例如蒸馏器)替换(i)诸如bertscore,moverscore,bartscore,xmoverscore等指标中的计算重型变压器等。线性和二次近似值的距离。我们考虑六个评估指标(单语和多语言),在三个不同的机器翻译数据集上进行了评估,并考虑了16个轻量级变压器作为替换。我们发现,(a)Tinybert在Bertscore家族的语义相似性指标上表现出最优质的效率折衷,保留了97 \%的质量,平均在推理时快5倍,(b)有很大的差异。 CPU与GPU的加速度(CPU上的更高速度)以及(c)WMD近似没有效率提高,但在我们检查的3个数据集中有2个数据集中有2个质量下降。
translated by 谷歌翻译
对文本生成的最新基于嵌入的评估指标的评估主要是基于衡量其与标准基准评估的相关性。但是,这些基准主要是从相似的域到用于浏览单词嵌入的域。这引起了人们对将基于嵌入的指标(缺乏)概括为新的和嘈杂的域的(缺乏)概括,这些指标包含与预处理数据不同的词汇。在本文中,我们研究了BertScore的鲁棒性,BertScore是文本生成最受欢迎的基于嵌入的指标之一。我们表明,(a)基于嵌入的度量与人类在标准基准上具有最高相关性的基于嵌入的度量,如果输入噪声或未知代币的量增加,则具有最低的相关性,(b)从预处理的第一层中嵌入的嵌入模型改善了所有指标的鲁棒性,并且(c)使用字符级嵌入式(而不是基于令牌的嵌入),从预科模型的第一层中实现了最高的鲁棒性。
translated by 谷歌翻译
最近提出的基于BERT的评估指标在标准评估基准方面表现良好,但容易受到对抗性攻击的影响,例如与事实错误有关。我们认为这(部分原因)是因为它们是语义相似性的模型。相反,我们根据自然语言推断(NLI)制定评估指标,我们认为这是更合适的建模。我们设计了一个基于偏好的对抗攻击框架,并表明我们的基于NLI的指标比最近基于BERT的指标更强大。在标准基准上,我们的基于NLI的指标的表现优于现有的摘要指标,但在SOTA MT指标下执行。但是,当我们将现有指标与NLI指标相结合时,我们可以获得更高的对抗性鲁棒性( +20%至 +30%)和较高质量的指标,如标准基准测量( +5%至 +25%)。
translated by 谷歌翻译
在本文中,我们将科学文章分类为自然语言处理(NLP)和机器学习(ML)的科学文章(i)是否通过引入击败现有模型或的新型技术来扩展当前的最新技术是否(ii)他们是否主要批评现有的最新技术,即,它相对于某些属性(例如,错误的评估,错误的数据集,误导性的任务规范)不足。我们将(i)下的贡献称为具有\ enquote {正姿势}和(ii)下的贡献为具有\ enquote {负姿势}(对相关工作)。我们注释来自NLP和ML的1.5k纸以超过1.5k的论文来培训基于SCIBERT的模型,以自动根据其标题和抽象来预测论文的立场。然后,我们分析了NLP和ML的最后35年$ 35年以上的41k纸上的大规模趋势,发现随着时间的流逝,论文变得更加积极,但是负面论文也变得更加负面,我们观察到更多的负面论文,我们观察到了更多的负面论文。最近几年。在收到的引用方面,负面论文也更具影响力。
translated by 谷歌翻译
监督机器翻译的绝大多数评估指标,即(i)假设参考翻译的存在,(ii)受到人体得分的培训,或(iii)利用并行数据。这阻碍了其适用于此类监督信号的情况。在这项工作中,我们开发了完全无监督的评估指标。为此,我们利用评估指标,平行语料库开采和MT系统之间的相似性和协同作用。特别是,我们使用无监督的评估指标来开采伪并行数据,我们用来重塑缺陷的基础向量空间(以迭代方式),并诱导无监督的MT系统,然后提供伪引用作为伪参考作为在中的附加组件中的附加组件指标。最后,我们还从伪并行数据中诱导无监督的多语言句子嵌入。我们表明,我们完全无监督的指标是有效的,即,他们在5个评估数据集中的4个击败了受监督的竞争对手。
translated by 谷歌翻译
通过单语言数据预先训练的多语言表示表现出跨语言的不平等任务表现。先前的研究通过资源密集型上下文对齐方式解决了这一挑战,该对齐方式假设大量并行数据的可用性,从而将代表性不足的语言社区留在后面。在这项工作中,我们将以前对齐技术的数据饥饿归因于两个局限性:(i)无法充分利用数据,并且(ii)这些技术未经适当的培训。为了解决这些问题,我们引入了受监督和无监督的基于密度的方法,该方法名为Real-NVP和GAN-REAL-NVP,由正常流动驱动以进行对齐,既将多语言子空间的对齐都剖析为密度匹配和密度建模。我们通过验证标准对这些方法进行补充,以指导培训过程。我们的实验包括16个对齐,包括我们的方法,对6个语言对,合成数据和5个NLP任务进行了评估。我们在有限和没有平行数据的情况下证明了方法的有效性。首先,我们对20k平行数据(句子)培训的监督方法主要超过了对超过100K平行句子的联合对准和Infoxlm。其次,在将我们的无监督方法集成在引导程序中时,可以删除并行数据,而这是理论上动机以实施多语言子空间的平等。此外,我们证明了验证标准的优势,而不是指导监督培训的验证数据。
translated by 谷歌翻译
评估指标是文本生成系统的关键成分。近年来,已经提出了几十年前的文本生成质量的人类评估,提出了几个基于伯特的评估指标(包括Bertscore,Moverscore,BLEurt等),这些评估与文本生成质量的人类评估比Bleu或Rouge进行了更好。但是,很少是已知这些度量基于黑盒语言模型表示的指标实际捕获(通常假设它们模型语义相似性)。在这项工作中,我们使用基于简单的回归的全局解释技术来沿着语言因素解开度量标准分数,包括语义,语法,形态和词汇重叠。我们表明,不同的指标捕获了一定程度的各个方面,但它们对词汇重叠大大敏感,就像Bleu和Rouge一样。这暴露了这些新颖性拟议的指标的限制,我们还在对抗对抗测试场景中突出显示。
translated by 谷歌翻译